데이터분석 준전문가 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

데이터 이해

1. 다음 중 기업의 전략 도출을 위한 가치 기반 분석과 관련된 설명으로 옳지 않은 것은?

1
핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁 전략과 밀접하게 연관된다.
2
다양한 대량의 데이터를 수집, 분석하여 새로운 정보나 인사이트를 도출하고, 이를 기반으로 비즈니스 가치를 창출하는 것이 중요하다.
3
전략적 분석과 통찰력의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.
4
기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 기반 분석의 가장 중요한 목표이다.

2. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?

1
운송 비용의 절감
2
상품 개발과 조립 비용의 절감
3
서비스 산업의 확대와 제조업의 축소
4
새로운 수익원의 발굴 및 활용

3. 데이터베이스의 일반적인 특징으로 옳지 않은 것은?

1
데이터베이스는 다수가 공동으로 이용하는 공용 데이터이다.
2
데이터베이스는 응용프로그램의 종속성을 가진다.
3
데이터베이스는 컴퓨터가 접근 가능한 저장매체에 데이터를 저장한다
4
데이터베이스는 동일한 내용의 데이터가 중복되지 않는 통합 데이터이다.

4. 다음 중 기업 내부 데이터베이스 솔루션으로 알맞지 않은 것은?

1
ERP
2
ITS
3
SCM
4
CRM

5. 데이터 특징에 대한 설명 중 옳지 않은 것은?

1
데이터는 객관적 사실이다.
2
데이터는 추론과 추정의 근거를 이루는 사실이다.
3
데이터의 최소단위는 바이트로 0과1의 이진수 하나로 이루어져 있다.
4
단순한 객체로서의 가치와 다른 객체와의 상호 관계 속에서 가치를 갖는다.

6. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?

1
Structured data
2
Qualitative data
3
Unstructured data
4
Semi-Structured data

7. 다음 중 빅데이터 활용 기법에 관한 설명으로 옳지 않은 것은?

1
군집분석을 통해 고객의 개인 신용 평가에 활용한다.(신용 예측에 활용한다.)
2
최적화 문제에 대한 해결 방안으로 사용되는 빅데이터 분석은 유전 알고리즘이다.
3
특정 주제에 대해 사용되는 텍스트를 분석하는 것을 감정(성)분석이라 한다.
4
최근 핀테크 기업들은 사회연결망 분석을 활용하고 있다.

8. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?

가. 사전처리 → 사후처리
나. 대면조사 → 표본조사
다. 질보다 → 양적으로
라. 상관관계 → 인과관계

1
가, 나
2
나, 라
3
다, 라
4
가, 라

9. 가트너가 본 데이터 사이언티스트의 요구 역량으로 알맞지 않은 것은?

1
데이터 관리
2
분석 모델링
3
비즈니스 분석
4
조직 관리

10. 다음 중 데이터 사이언티스트에게 요구되는 하드 스킬로 알맞은 것은?

1
데이터 분석 기술
2
시각화를 활용한 설득력
3
커뮤니케이션 기술
4
창의적 사고

데이터분석 기획

11. 조직에 대한 분석 문화를 자리 잡게 하기 위한 행동으로 알맞지 않은 것은?

1
경영진이 데이터에 기반 한 의사결정을 할 수 있는 기업문화 정착의 변화관리를 지속해야 한다.
2
분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 실시해야 한다.
3
단순한 도구(Tool) 교육이 아닌 분석 역량의 확보와 강화에 초점을 맞춰야 한다.
4
경영진을 대상으로 한시적 속성 교육을 강화해야 한다.

12. 아래에서 설명한 데이터 분석 조직 구조는?

- 전사 분석업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석 조직이 우선 순위를 정해서 진행 가능
- 현업 업무부서의 분석 업무와 이중화/이원화 가능성 높음

1
집중 구조
2
기능 구조
3
확산 구조
4
분산 구조

13. 빅데이터 분석 방법론의 분석 기획 단계 산출물인 프로젝트 범위 정의서(SOW)에 들어가는 내용으로 옳은 것은?

1
비즈니스 이해
2
데이터 정의
3
데이터 스토어 설계
4
탐색적 분석

14. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(TASK)로 옳지 않은 것은?

1
모델링 기법 선택
2
데이터 통합
3
모델 테스트 계획 설계
4
모델 평가

15. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?

1
분석 기획 → 데이터 준비 → 시스템 구현 → 데이터 분석 → 평가 및 전개
2
분석 기획 → 데이터 분석 → 시스템 구현 → 데이터 준비 → 평가 및 전개
3
데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
4
분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

16. 분석 과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?

1
분석 대상이 명확할 때 솔루션을 찾는 방식이다.
2
일반적으로 비지도 학습(Unsupervised Learning) 방식을 수행한다.
3
다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 문제를 도출하는 일련의 과정이다.
4
하향식 접근 방식과는 달리 복잡하고 다양한 환경에서 발생하는 문제 해결에도 적합하다.

17. 과제 중심적인 접근 방식으로 진행되는 특징으로 알맞지 않은 것은?

1
Speed & Test
2
Quick-Win
3
Accuracy & Deploy
4
Problem solving

18. 하향식 접근 방식의 수행 내용으로 옳지 않은 것은?

1
문제 탐색
2
프로토 타이핑
3
문제 정의
4
타당성 검토

19. 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 Task로 옳은 것은

1
비즈니스의 이해 및 범위 설정
2
필요 데이터 정의
3
모델 적용 및 운영 방안 수립
4
모델 발전 계획 수립

20. 데이터 분석 기획 유형에 관한 설명으로 옳지 않은 것은?

1
분석 대상을 알고, 분석 방식도 아는 경우 개선을 통한 최적화 유형을 적용한다.
2
최적화, 솔루션, 관찰, 발견의 4가지 분석 주제 유형으로 이루어져 있다.
3
분석 대상을 알고 분석 방식을 모르는 경우 솔루션을 찾아내는 방식을 적용한다.
4
발견은 분석대상을 모르고, 분석 방식도 모르는 경우 적용한다.

데이터분석

21. 다음이 설명하는 표본 추출 방법으로 알맞은 것은

모집단을 상이한 집단으로 나누고 각 집단에서 무작위로 표본을 추출하는 방법

1
단순 무작위 추출법
2
계통 추출법
3
군집 추출법
4
층화 추출법

22. 주성분 수의 선택 방법에 대한 설명으로 가장 옳지 않은 것은?

1
주성분들이 설명하는 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택할 수도 있다.
2
고유값이 1에 가까운 값을 선택 한다.
3
스크리 플롯(Scree Plot)을 통해서 주성분의 분산 감소가 급격하게 줄어들어, 주성분의 개수를 늘릴때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정할 수 있다.
4
전체 변이 공헌도 방법은 고유값 평균 및 스크리 플롯(Scree Plot) 방법보다 항상 우수하다.

23. 의사결정 나무 분리 기준인 엔트로피 지수의 계산식은?

1
엔트로피 지수(Entropy index)
2
엔트로피 지수(Entropy index)
3
엔트로피 지수(Entropy index)
4
엔트로피 지수(Entropy index)

24. 확률에 대한 설명으로 가장 적합하지 않은 것은?

1
각 사건의 확률은 0~1이다.(확률은 0이상의 값을 가진다.)
2
표본 공간(S)에서 발생 가능한 모든 사건의 확률의 합은 1이다.
3
A와 B가 독립 사건인 경우, 각 독립사건들의 확률의 합은 합집합의 확률과 동일하다.
4
전체 표본 중 독립적인 것을 근원 사건이라 한다.

25. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료 유형 별 닭의 무게 데이터이다. summary함수 결과에 대한 해석 옳지 않은 것은?

1
feed는 범주형 데이터이다.
2
feed의 사료 중 soybean의 수가 가장 많다.
3
range(chickwts$weight) 결과는 108 423이다.
4
weight의 평균값은 258.0이다

26. 계층적 군집 방법으로 가장 알맞지 않은 것은?

1
단일 연결법
2
완전 연결법
3
평균 연결법
4
편차 연결법

27. 분해시계열의 요인으로 알맞지 않은 것은?

1
추세 요인
2
계절 요인
3
환경 요인
4
순환 요인

28. 다음 수식으로 구할 수 있는 데이터간 거리는?

1
유클리드 거리
2
표준화 거리
3
마할라노비스 거리
4
민코프스키 거리(민코우스키 거리)

29. 다음 중 의사결정나무와 가장 관련 없는 용어는?

1
카이제곱 통계량
2
지니 지수
3
엔트로피 지수
4
퍼셉트론(Perceptron)

30. 두개의 확률 변수 X, Y의 공분산에 대한 설명 중 옳지 않은 것은?

1
공분산이 양수이면 X가 증가할 때 Y도 증가한다.
2
공분산이 음수이면 X가 증가할 때 Y는 감소한다.
3
공분산의 크기는 상관계수와 동일하게 -1 ~ 1 사이의 범위를 갖는다.
4
공분산이 0이면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계이다.

31. 아래의 F-Beta Score(지표)에 대한 설명으로 옳은 것은?

1
Beta 값이 1.0보다 크면 Percision에 비중을 두고 계산한다.
2
Beta 값이 1.0보다 작으면 Recall에 비중을 두고 계산한다.
3
Beta 값이 0.5일 경우 precision에 2배 가중치하여 평균한다.
4
Recall 값과 Precision값이 정확히 같다면 Beta에 관계없이 다른 결과가 나온다.

32. 앙상블 기법에 대한 설명으로 알맞은 것은?

1
앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.
2
대표적인 앙상블 기법은 배깅, 부스팅이 있다.
3
전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다.
4
랜덤 포레스트는 앙상블 기법 중 유일한 비지도 기법이다.

33. 다음 중 통계적 가설검정에 대한 설명으로 옳지 않은 것은?

1
귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류를 유의수준이라 한다.
2
귀무가설이 거짓일 경우, 이를 옳지 않다고 판단하는 확률을 검정력이라 한다.
3
사실인 귀무가설을 기각했을 때 발생하는 오류를 제 2종 오류라 한다.
4
p-value(유의확률)이 클수록 귀무가설을 채택하는 것으로 해석한다.

34. K-means 군집분석에 대한 설명으로 옳은 것은?

1
군집에서 가장 중심에 위치한 객체를 사용하여 k개의 군집을 찾게 된다.
2
K-Medoids 알고리즘에 비해 노이즈 처리에 우수하고 연산량이 많다.
3
초승달 모양(Crecent Shaped) 데이터 셋에 적합하다.
4
군집 절차 수행 시 군집 수 K는 초기에 설정되어야 한다.

35. 아래 오분류표에서 재현율(Recall)로 가장 알맞은 것은?

1
3/10
2
2/5
3
1/3
4
7/11

36. 확률 질량 함수의 확률변수 X의 기대값은?

1
10/6
2
11/6
3
12/6
4
13/6

37. 군집분석 시 데이터의 단위가 다를 경우 사용하는 기법으로 알맞은 것은?

1
Elimination
2
Sampling
3
Averaging
4
Scaling

38. 다음 중 통계 용어에 대한 설명으로 옳지 않은 것은?

1
다른 변수의 영향을 받는 변수를 설명 변수라고 한다.
2
모집단의 평균을 추정하기 위해 표본 평균을 계산한다.
3
표준 편차는 데이터가 평균으로부터 떨어진 정도를 나타내는 척도이다.
4
사분위수범위는 데이터의 25%, 50%, 75%에서 25%의 값을 빼준 값이다.

39. 다음 중 시계열 모형에 대한 설명으로 옳은 것은?

1
ARIMA의 약어는 AutoRegressive Improved Moving Average 이다.
2
ARIMA 모형에서 P=0일 때, IMA(d,q) 모형이라고 부르고, d번 차분하면 MA(q) 모형을 따른다.
3
분해시계열은 일반적인 요인을 분리하여 분석하는 방법으로 회귀분석적인 방법과는 다르게 사용한다.
4
ARIMA모형에서는 정상성을 확인할 필요가 없다.

40. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 알맞지 않은 것은?

1
Q-Q plot
2
결정 계수
3
히스토그램
4
첨도와 왜도

41. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?

1
F-Statistics
2
Chi-Statistics
3
T-Statistics
4
R-Square

42. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?

1
명목 척도
2
순서 척도
3
등간 척도
4
비율 척도

43. 상관계수에 대한 설명으로 옳지 않은 것은?

1
피어슨 상관계수는 두 변수 간의 선형적인 관계의 강도를 측정한다.
2
피어슨 상관계수는 두 변수의 원래 값을 사용하여 계산된다.
3
스피어만 상관계수는 모수적 관계에서 두 변수 간의 단조적인 관계의 강도를 측정한다.
4
피어슨 상관계수가 0이면 선형관계가 없다.

44. 시계열 데이터의 정상성(Stationary)에 대한 설명으로 옳지 않은 것은?

1
평균이 일정하다.
2
시계열 자료는 독립성을 충족해야 한다.
3
분산이 시점에 의존하지 않는다.
4
공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않는다.

45. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정 계수의 특성으로 옳지 않은 것은?

1
결정 계수는 0에서 1의 값을 가진다.
2
높은 값을 가질수록 측정된 회귀식의 설명력이 높다.
3
총 변동에서 추정된 회귀식에 의해 설명되는 변동의 비율로 나타낼 수 있다.
4
종속 변수와 독립 변수 사이의 표본 상관 계수 값과 같다.

46. 선형회귀모형이 오차항에 가정조건으로 옳은 것은?

1
독립성, 선형성, 등분산성
2
독립성, 등분산성, 정규성
3
정규성, 효율성, 등분산성
4
정규성, 편의성, 독립성

47. 아래 설명에 해당하는 용어로 알맞은 것은?

다층 신경망 모형에서 은닉 층의 개수를 너무 많이 설정하면 역전파 과정에서 앞쪽 은닉층의 가중치가 조정되지 않아, 신경망에 대한 학습이 제대로 되지 않는 현상

1
기울기소실 문제
2
과적합
3
활성화 함수
4
신경망 레이어 소실

48. 아래 보기의 회귀모델에 대한 설명 중 옳지 않은 것은?

1
추정된 회귀식은 weight = 24.4654 + 79879*time와 같다.
2
F=통계량 : 232.7, p-값: 2.974e-08으로 보아 유의수준 5%하에서 추정된 회귀 모형이 통계적으로 매우 유의하다.
3
time이 1 증가할 때, weight가 5.99만큼 증가한다.
4
결정계수 또한 0.9588로 매우 높은 값을 보이므로 이 회귀식이 데이터를 약 96% 정도로 설명하고 있다.

49. 카이제곱 통계량의 에측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?

1
카이제곱 통계량을 이용한 적합도 검정은 여러 범주형 변수에 대해 관측 값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법이다.
2
데이터의 정규성을 검정하기 위해 오차항이 정규분포를 추종하는지 알아보는 검정방법이다.
3
예측 표본과 실제 표본의 차이가 많을 때, 도수가 낮아지고 검정 통계량이 높아져 유의 확률이 낮아진다.
4
각 데이터 포인트와 이론적인 분포 간의 차이를 측정하여 이 차이를 기반으로 검정 통계량을 계산한다.

50. 인공신경망 함수에 대한 설명으로 옳지 않은 것은?

1
인공신경망 함수는 여러 개의 뉴런이 연결된 구조를 가지고 있으며, 각 뉴런은 입력값에 따라 비선형적인 변환을 수행한다.
2
쌍곡탄젠트 함수는 0~1 사이의 값을 출력하며 시그모이드 함수와 관련이 있다.
3
인공신경망 함수는 활성화 함수를 사용하여 입력값을 출력값으로 변환한다.
4
대표적인 인공신경망 함수로는 시그모이드 함수, 쌍곡탄젠트 함수, 렐루 함수 등이 있다.

데이터분석 준전문가 40회

데이터 이해

1. 다음 중 기업의 전략 도출을 위한 가치 기반 분석과 관련된 설명으로 옳지 않은 것은?

2. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?

3. 데이터베이스의 일반적인 특징으로 옳지 않은 것은?

4. 다음 중 기업 내부 데이터베이스 솔루션으로 알맞지 않은 것은?

5. 데이터 특징에 대한 설명 중 옳지 않은 것은?

6. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?

7. 다음 중 빅데이터 활용 기법에 관한 설명으로 옳지 않은 것은?

8. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?

9. 가트너가 본 데이터 사이언티스트의 요구 역량으로 알맞지 않은 것은?

10. 다음 중 데이터 사이언티스트에게 요구되는 하드 스킬로 알맞은 것은?

데이터분석 기획

11. 조직에 대한 분석 문화를 자리 잡게 하기 위한 행동으로 알맞지 않은 것은?

12. 아래에서 설명한 데이터 분석 조직 구조는?

13. 빅데이터 분석 방법론의 분석 기획 단계 산출물인 프로젝트 범위 정의서(SOW)에 들어가는 내용으로 옳은 것은?

14. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(TASK)로 옳지 않은 것은?

15. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?

16. 분석 과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?

17. 과제 중심적인 접근 방식으로 진행되는 특징으로 알맞지 않은 것은?

18. 하향식 접근 방식의 수행 내용으로 옳지 않은 것은?

19. 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 Task로 옳은 것은

20. 데이터 분석 기획 유형에 관한 설명으로 옳지 않은 것은?

데이터분석

21. 다음이 설명하는 표본 추출 방법으로 알맞은 것은

22. 주성분 수의 선택 방법에 대한 설명으로 가장 옳지 않은 것은?

23. 의사결정 나무 분리 기준인 엔트로피 지수의 계산식은?

24. 확률에 대한 설명으로 가장 적합하지 않은 것은?

25. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료 유형 별 닭의 무게 데이터이다. summary함수 결과에 대한 해석 옳지 않은 것은?

26. 계층적 군집 방법으로 가장 알맞지 않은 것은?

27. 분해시계열의 요인으로 알맞지 않은 것은?

28. 다음 수식으로 구할 수 있는 데이터간 거리는?

29. 다음 중 의사결정나무와 가장 관련 없는 용어는?

30. 두개의 확률 변수 X, Y의 공분산에 대한 설명 중 옳지 않은 것은?

31. 아래의 F-Beta Score(지표)에 대한 설명으로 옳은 것은?

32. 앙상블 기법에 대한 설명으로 알맞은 것은?

33. 다음 중 통계적 가설검정에 대한 설명으로 옳지 않은 것은?

34. K-means 군집분석에 대한 설명으로 옳은 것은?

35. 아래 오분류표에서 재현율(Recall)로 가장 알맞은 것은?

36. 확률 질량 함수의 확률변수 X의 기대값은?

37. 군집분석 시 데이터의 단위가 다를 경우 사용하는 기법으로 알맞은 것은?

38. 다음 중 통계 용어에 대한 설명으로 옳지 않은 것은?

39. 다음 중 시계열 모형에 대한 설명으로 옳은 것은?

40. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 알맞지 않은 것은?

41. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?

42. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?

43. 상관계수에 대한 설명으로 옳지 않은 것은?

44. 시계열 데이터의 정상성(Stationary)에 대한 설명으로 옳지 않은 것은?

45. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정 계수의 특성으로 옳지 않은 것은?

46. 선형회귀모형이 오차항에 가정조건으로 옳은 것은?

47. 아래 설명에 해당하는 용어로 알맞은 것은?

48. 아래 보기의 회귀모델에 대한 설명 중 옳지 않은 것은?

49. 카이제곱 통계량의 에측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?

50. 인공신경망 함수에 대한 설명으로 옳지 않은 것은?